python - 如何输出文件python中的每一行
全部标签 我有一个大约150MB的简单文本文件。我的代码将读取每一行,如果它与某些正则表达式匹配,它就会写入输出文件。但是现在,遍历文件的所有行(几分钟)只需要很长时间,就像File.open(filename).eachdo|line|#dosomestuffend我知道循环遍历文件行需要一段时间,因为即使我对“#dosomestuff”中的数据不做任何操作,它仍然需要很长时间。我知道一些unix程序几乎可以立即解析这样的大文件(比如grep),所以我想知道为什么ruby(MRI1.9)读取文件需要这么长时间,有什么方法可以让它更快吗? 最佳答案
有什么方法可以打印Ruby1.9.x进程的运行时堆栈跟踪吗?我知道Ruby1.8有一个名为pstack的实用程序,但该项目似乎在几年前就被放弃了:https://github.com/ice799/pstack.Ruby1.9是否存在类似的东西?非常感谢!编辑:我有兴趣使用外部工具生成堆栈跟踪(不在与Ruby进程相同的内存空间中运行)。正如@mosch所指出的,Kernal#caller方法在正在运行的Ruby进程中运行。您甚至可以构建对捕获进程信号并打印堆栈跟踪的Ruby代码的支持:Signal.trap("SIGTERM"){pcaller}引用:http://www.ruby-d
我正在使用Ruby,需要在尝试创建新文件之前检测目录是否可写。我已经尝试了下面的代码,它根据@path是否是一个目录正确地返回true/false。但是,当没有对@path文件夹的写权限时,它仍然返回true。ifFile.directory?(@path)&&File.writable?(@path)#isawriteabledirectorytrueelse#isnotawriteabledirectoryfalseend我查看了File和Dir类的帮助,但看不到任何允许我检查目录写入权限的方法。有办法吗?我只需要它在Windows上运行,使用Ruby1.9.3。
我正在为我们的一个内联应用构建一个配置文件。它本质上是一个json文件。我在让puppet/ruby1.8每次都以相同的方式输出哈希/json时遇到了很多麻烦。我正在使用但是在输出人类可读的内容时,它并不能保证每次都是相同的顺序。这意味着Puppet会经常针对相同的数据发送更改通知。我也试过每次都会生成相同的数据/订单。当数据具有嵌套数组时就会出现问题。data=>{beanstalkd=>["server1",]}成为"beanstalkd":"server1",代替"beanstalkd":["server1"],我断断续续与这个问题斗争了几天,所以需要一些帮助
在MacOSXLion上使用Rubyv1.8.7和Daemonsv1.1.8,我试图编写一个消费者进程并让它作为守护进程运行:#config[:name]=>'idx_my_delete_consumer'#config[:daemon]=>{:multiple=>false,#:backtrace=>true,#:dir_mode=>:normal,#:log_dir=>'/Users/pprakash/consumer.log',#:monitor=>true,#:dir=>'/Users/pprakash/pids'}Daemons.run_proc(config[:name],
这里是Jekyll的新手(之前在Hyde上)。位于_plugins/目录中的Ruby文件显然被默默地忽略了。我在Ubuntu12.04上使用0.11.2版的Jekyll和ruby1.8.7。是否应该添加一个额外的配置参数来加载这些插件?文档没有这么说-理智的默认设置应该是查看_plugins,并且应该自动要求它们。如何调试Jekyll插件的加载? 最佳答案 对于我的jekyll实例(也是0.11.2,但在Mac上使用ruby1.9.2p290),我不需要添加任何额外的配置,但您可以尝试将以下行添加到您的顶级“_config”
我正在构建一个Ruby脚本来更改config/locales/*.ymlRails语言环境文件的内容。这些文件包含许多有用的注释和变量。通过加载、更新和转储它们,我丢失了这些注释和变量。如何在保留注释和变量的同时以编程方式更新YAML文件? 最佳答案 我不认为你可以。YAML会忽略数据文件中的注释,但不会解析它们,因此它们会在文件加载时被丢弃。加载文件后,它们就消失了。我能想到的做你想做的唯一方法是在YAML之外打开文件,然后编写注释,然后写入使用to_yaml创建的YAML内容。像这样的东西:require'yaml'data={
我有一个关于Rails引擎的问题,在关于Rails引擎的Rails指南中没有提到。我希望在这里得到它。例如,我有一个名为my_engine的引擎和一个名为my_app的应用。出于开发目的,在my_app的Gemfile中,我使用:file键简单地将my_engine包含在以下行中。#my_app/Gemfile...gem"my_engine",:path=>"./../my_engine"...my_engine结构是这样的:.├──Gemfile├──Gemfile.lock├──app│ ├──...||...|├──config│ ├──locales│ │ └──mo
我想出了一种方法来确定我传入的文件的编码(或至少是猜测):defencoding_type(file_path)File.read(file_path).encoding.nameend问题是我有一个15GB的文件,这意味着整个文件都被读入了内存。有没有办法在不需要将整个文件读入内存的情况下完成我在这个方法中所做的事情? 最佳答案 file-mime命令将返回文件的mime类型和编码:file-mimemyfile我的文件:文本/纯文本;charset=iso-8859-1defdetect_charset(file_path)`f
我一直在看maxmethod在Ruby的Enumerable混合(v2.4.1)。这是一个相当简单的方法,但是当存在重复项时它如何排序项目有点令人困惑。例如:x=[1,2,3,4,5,6,7,8,9]x.max{|a,b|a%2b%2}=>110.times{|y|px.max(y){|a,b|a%2b%2}}[][1][1,7]#whyis7thenextelementafter1?[3,1,5]#whynomore7?[7,3,1,5]#7isnowfirst[9,7,3,1,5][9,7,3,1,5,6][9,7,3,1,5,4,6][9,7,3,1,5,2,4,6][9,7,5